ROCm e HIP: Una guía detallada de 10 capítulos: El cambio de mentalidad hacia la sincronización de GPU

La transición fundamental en computación de alto rendimiento implica pasar de un modelo de ejecución serial centrado en la CPU a un modelo desacoplado productor-consumidor donde la CPU gestiona la tubería mientras la GPU opera de forma independiente. La idea clave es que la GPU no está pensada para ser controlada como un dispositivo estrictamente síncrono; tratarla de esta manera crea un cuello de botella de tipo "espera y detente".

1. El ciclo de vida del flujo de trabajo

En una mentalidad asíncrona, el desarrollador no espera a que cada tarea termine. En su lugar, ellos asignan memoria, lanzan núcleos, y copian de vuelta resultados colocando solicitudes no bloqueantes en una cola de hardware.

2. Superar los cuellos de botella

Cuando el anfitrión se ve obligado a sincronizar después de cada operación, el intervalo de ejecución—el tiempo de viaje entre la CPU y la GPU—domina el rendimiento. Al utilizar la asincronía, la CPU continúa trabajando mientras la GPU procesa su flujo, maximizando la saturación del hardware.

$$\text{Tiempo total} = \max(\text{Trabajo de CPU}, \text{Trabajo de GPU}) + \text{Sobrecarga de sincronización}$$

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Which set of steps correctly converts a synchronous vector-add to use an explicit stream?

Call hipStreamCreate, use hipMemcpyAsync with the handle, and pass the handle as the 4th kernel argument.

Call hipDeviceSynchronize after every kernel launch and use hipMemcpy.

Set the stream parameter to NULL in all hipMemcpyAsync calls.

Replace hipMalloc with hipHostMalloc exclusively.

QUESTION 2

Why is a GPU considered 'not meant to be driven as a strictly synchronous device'?

Because it has no internal clock.

Because waiting for the CPU to confirm every command leaves thousands of cores idle.

Because memory transfers cannot be tracked by the CPU.

Because the GPU must manage its own power state.

QUESTION 3

What is the primary risk of forcing the host to synchronize after every operation?

Memory corruption.

Host-side stalling and loss of hardware saturation.

Increased power consumption on the GPU.

Kernel compile errors.

QUESTION 4

In the logistics warehouse analogy, what does the 'Conveyor Belt' represent?

A HIP Stream.

The GPU Driver.

The CPU Cache.

The VRAM buffer.

QUESTION 5

True or False: hipMemcpyAsync returns control to the CPU before the data transfer is complete.

True

False